big data - overfit.cn

Spark追妻系列(Spark初了解)

感觉每天又有了希望，又有动力，感觉学习尽头十足Spark是什么Spark是一个用来实现快速而通用的集群计算的平台。在之前，学习了MR，学习了hadoop，用mapreduce来对数据进行处理，但是hadoop是用批处理的，而且还有延迟，况且，出来了Hive，Hive将sql转化为mr算子。可以不用去

overfit同步小助手 2022-01-30 08:53:59 0 收藏

女生学大数据好还是计算机好？都适合女生吗？就业前景好吗？

女生学大数据好还是计算机好？都适合女生吗？就业前景好吗？提起理工类专业，特别是工科专业，很多女生都会望而却步，而社会对于女生学工科专业的认可度也比较低。但随着女性职业优势的逐渐展现，这种传统的观念已经逐渐被摒弃，女生同样能选择工科专业。不过，相比较而言，大部分女生在逻辑思维和理科思维方面确实会弱于男

overfit同步小助手 2022-01-30 08:53:56 0 收藏

Linux CentOS7下多机器集群安装Elasticsearch记录

部署机器主机名(hostname) IP 版本 master 192.168.0.112 CentOS Linux release 7.9.2009 (Core) node 192.168.0.113 CentOS Linux release 7.9.2009 (Core

overfit同步小助手 2022-01-29 07:23:03 0 收藏

如何在工作中提高pandas运行速率？【超实用方法整理】

几种提升pandas运行速率的实用方法。

overfit同步小助手 2022-01-29 07:21:39 0 收藏

六十五、Spark-综合案例(搜狗搜索日志分析)

业务逻辑：针对SougoQ用户查询日志数据中不同字段，使用SparkContext读取日志数据，封装到RDD数据集中，调用Transformation函数和Action函数进行处理不同业务统计分析...

overfit同步小助手 2022-01-28 12:22:26 0 收藏

六十四、Spark-分别统计各个单词个数及特殊字符总个数

广播变量（Broadcast Variables）：广播变量用来把变量在所有节点的内存之间进行共享，在每个机器上缓存一个只读的变量，而不是为机器上的每个任务都生成一个副本，简单理解：减少内存，减小计算压力;

overfit同步小助手 2022-01-27 07:28:11 0 收藏

数分-理论-大数据7-Spark

数分-理论-大数据7-Spark（大数据框架）(数据分析系列)文章目录数分-理论-大数据7-Spark（大数据框架）1知识点2具体内容2.1概述2.1.1起源2.1.2诞生2.1.3Spark与Hadoop、MapReduce、HDFS的关系2.1.4生态体系2.2编程模型-核心2.2.1RDD概述

overfit同步小助手 2022-01-27 07:28:04 0 收藏

六十三、Spark-读取数据并写入数据库

需求说明：使用Spark流式计算将数据写入MySQL，并读取数据库信息进行打印

overfit同步小助手 2022-01-27 07:27:51 0 收藏

02环境搭建

overfit同步小助手 2022-01-26 07:19:35 0 收藏

spark技术学习与思考（sparkcore&sparksql）

Spark 产生之前，已经有 MapReduce 这类非常成熟的并行计算框架存在了，并提供了高层次的API(map/reduce)，它在集群上进行计算并提供容错能力，从而实现分布式计算。所以为什么 spark 会流行呢？

overfit同步小助手 2022-01-25 07:19:30 0 收藏

大数据Java基础DAY11（抽象类，接口）

抽象类抽象类概述在Java中，一个没有方法体的方法应该定义为抽象方法，而类中如果有抽象方法，该类必须定义为抽象类。抽象类特点a.抽象类和抽象方法必须用abstract关键字修饰格式: abstract class 类名 {} public abstract void eat(); （抽象

overfit同步小助手 2022-01-24 07:19:40 0 收藏

分拆计划陷入困境，英特尔还能重回巅峰吗?

据外媒报道，英特尔即将于2022年1月26日发布第四季度财报。但在这之前，关于英特尔的消息似乎已被另一家公司的财报所透露，这家公司就是台积电。

overfit同步小助手 2022-01-23 07:18:01 0 收藏

大数据之Redis单节点安装教程

Redis安装教程下载RedisRedis下载点击上方链接，即可进入Redis下载页面，这里我们选择安装最新版 Redis 6.2.6使用Xftp上传Redis压缩包在/usr/local目录下新建一个存放软件安装的目录moudlecd /usr/localmkdir moudle解压将Redis解

overfit同步小助手 2022-01-22 09:19:16 0 收藏

【2022持续更新】大数据面试题整理-数据仓库篇

导语本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点，方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理，并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接，方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念

overfit同步小助手 2022-01-21 07:49:15 0 收藏

大数据技术SpringBoot框架---实现前后端分离(MVC)对数据进行可视化

Spring Boot1、什么是Spring Boot Spring Boot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。通过这种方式，Spring Boot致

overfit同步小助手 2022-01-20 07:49:44 0 收藏

3分钟搞懂中台

文章目录什么是数据中台？背景作用定义中台类型有哪些？业务数据双中台技术中台研发中台移动中台管理中台组织中台企业为什么要建中台？需求变了匹配失衡鱼和熊掌成功的中台推荐阿里数据中台网易业务中台百度AI 中台……最后什么是数据中台？背景2015年全年产生的数据量等于历史上所有人类产生数据的总和，人类的数据

overfit同步小助手 2022-01-20 07:49:30 0 收藏

Elastic换帅，Kunlkarni接替Banon成为新任CEO

Elastic换帅！Ashutosh Kulkarni成为新一代领袖

overfit同步小助手 2022-01-19 07:49:27 0 收藏

大数据技术使用java实现MapReduce对文件进行切分，分类汇总

overfit同步小助手 2022-01-18 07:49:21 0 收藏

Hadoop——MapReduce（3）

MapReduce：自己处理业务相关代码 + 自身的默认代码文章目录1.MapReduce优缺点2.MapReduce进程3.序列化4 InputFormat数据输入4.1 切片与MapTask并行度决定机制4.2 Job提交流程源码详解4.3 FileInputFormat 切片机制4.4 Fil

overfit同步小助手 2022-01-17 11:49:44 0 收藏

实时数仓中维度数据为什么采用HBase?

为什么不使用Redis?维度中user用户维度数据量大。为什么不适用MySQL?并发压力太大了，因为MySQL中的表本来就和用户打交道，响应用户请求，增删改查，再用它去查维度数据就没必要。初次之外还可以选择ES，这主要取决于实际场景或者架构师跟喜欢哪一种。...

overfit同步小助手 2022-01-17 11:49:39 0 收藏